BARBEY Charlotte et PRUTKI Lucas

M2 MoSEF - Data Mining

Exploratory Data Analysis (EDA)

Librairies

# Définir les librairies que l'on va utiliser
libraries_used <- 
  c("dplyr", "funModeling", "ggplot2", "PerformanceAnalytics", "plotly", "scales", "tidyr", "tinytex")

# Vérification des librairies installées
libraries_missing <- 
  libraries_used[!(libraries_used %in% installed.packages()[,"Package"])]

# Installer les librairies manquantes
if(length(libraries_missing)) install.packages(libraries_missing)

Import des librairies


library(dplyr)
library(funModeling)
library(ggplot2)
library(PerformanceAnalytics)
library(plotly)
library(scales)
library(tidyr)
library(tinytex)

Import des données

data <- read.csv("data_lending_club.csv")

La base de données comporte 151 variables. Nous n’allons pas toutes les regarder une par une. en revanche, nous allons cibler les plus intéressantes et celles qui sont susceptibles d’expliquer au mieux pourquoi un investisseur pourrait faire un défaut de paiement. En outre, l’exploration graphique de la base de données vise aussi à comprendre nos données, à savoir comment les nettoyer mais aussi et surtout à émettre nos premières hypothèses quant à la problématique posée par le projet d’investissement.

Description des données

structure_data <- str(data)
'data.frame':   20000 obs. of  151 variables:
 $ id                                        : int  68407277 68355089 68341763 66310712 68476807 68426831 68476668 67275481 68466926 68616873 ...
 $ member_id                                 : logi  NA NA NA NA NA NA ...
 $ loan_amnt                                 : num  3600 24700 20000 35000 10400 ...
 $ funded_amnt                               : num  3600 24700 20000 35000 10400 ...
 $ funded_amnt_inv                           : num  3600 24700 20000 35000 10400 ...
 $ term                                      : chr  " 36 months" " 36 months" " 60 months" " 60 months" ...
 $ int_rate                                  : num  14 12 10.8 14.8 22.4 ...
 $ installment                               : num  123 820 433 830 290 ...
 $ grade                                     : chr  "C" "C" "B" "C" ...
 $ sub_grade                                 : chr  "C4" "C1" "B4" "C5" ...
 $ emp_title                                 : chr  "leadman" "Engineer" "truck driver" "Information Systems Officer" ...
 $ emp_length                                : chr  "10+ years" "10+ years" "10+ years" "10+ years" ...
 $ home_ownership                            : chr  "MORTGAGE" "MORTGAGE" "MORTGAGE" "MORTGAGE" ...
 $ annual_inc                                : num  55000 65000 63000 110000 104433 ...
 $ verification_status                       : chr  "Not Verified" "Not Verified" "Not Verified" "Source Verified" ...
 $ issue_d                                   : chr  "Dec-2015" "Dec-2015" "Dec-2015" "Dec-2015" ...
 $ loan_status                               : chr  "Fully Paid" "Fully Paid" "Fully Paid" "Current" ...
 $ pymnt_plan                                : chr  "n" "n" "n" "n" ...
 $ url                                       : chr  "https://lendingclub.com/browse/loanDetail.action?loan_id=68407277" "https://lendingclub.com/browse/loanDetail.action?loan_id=68355089" "https://lendingclub.com/browse/loanDetail.action?loan_id=68341763" "https://lendingclub.com/browse/loanDetail.action?loan_id=66310712" ...
 $ desc                                      : chr  "" "" "" "" ...
 $ purpose                                   : chr  "debt_consolidation" "small_business" "home_improvement" "debt_consolidation" ...
 $ title                                     : chr  "Debt consolidation" "Business" "" "Debt consolidation" ...
 $ zip_code                                  : chr  "190xx" "577xx" "605xx" "076xx" ...
 $ addr_state                                : chr  "PA" "SD" "IL" "NJ" ...
 $ dti                                       : num  5.91 16.06 10.78 17.06 25.37 ...
 $ delinq_2yrs                               : num  0 1 0 0 1 0 0 1 0 0 ...
 $ earliest_cr_line                          : chr  "Aug-2003" "Dec-1999" "Aug-2000" "Sep-2008" ...
 $ fico_range_low                            : num  675 715 695 785 695 690 680 705 685 700 ...
 $ fico_range_high                           : num  679 719 699 789 699 694 684 709 689 704 ...
 $ inq_last_6mths                            : num  1 4 0 0 3 0 0 0 1 0 ...
 $ mths_since_last_delinq                    : num  30 6 NA NA 12 NA 49 3 NA 75 ...
 $ mths_since_last_record                    : num  NA NA NA NA NA NA NA NA 106 NA ...
 $ open_acc                                  : num  7 22 6 13 12 5 12 8 14 8 ...
 $ pub_rec                                   : num  0 0 0 0 0 0 0 0 1 0 ...
 $ revol_bal                                 : num  2765 21470 7869 7802 21929 ...
 $ revol_util                                : num  29.7 19.2 56.2 11.6 64.5 68.4 84.5 5.7 34.5 39.1 ...
 $ total_acc                                 : num  13 38 18 17 35 6 27 15 23 18 ...
 $ initial_list_status                       : chr  "w" "w" "w" "w" ...
 $ out_prncp                                 : num  0 0 0 15898 0 ...
 $ out_prncp_inv                             : num  0 0 0 15898 0 ...
 $ total_pymnt                               : num  4422 25680 22706 31464 11740 ...
 $ total_pymnt_inv                           : num  4422 25680 22706 31464 11740 ...
 $ total_rec_prncp                           : num  3600 24700 20000 19102 10400 ...
 $ total_rec_int                             : num  822 980 2706 12362 1340 ...
 $ total_rec_late_fee                        : num  0 0 0 0 0 0 0 0 0 0 ...
 $ recoveries                                : num  0 0 0 0 0 0 0 0 0 0 ...
 $ collection_recovery_fee                   : num  0 0 0 0 0 0 0 0 0 0 ...
 $ last_pymnt_d                              : chr  "Jan-2019" "Jun-2016" "Jun-2017" "Feb-2019" ...
 $ last_pymnt_amnt                           : num  123 926 15813 830 10129 ...
 $ next_pymnt_d                              : chr  "" "" "" "Apr-2019" ...
 $ last_credit_pull_d                        : chr  "Mar-2019" "Mar-2019" "Mar-2019" "Mar-2019" ...
 $ last_fico_range_high                      : num  564 699 704 679 704 759 654 674 719 679 ...
 $ last_fico_range_low                       : num  560 695 700 675 700 755 650 670 715 675 ...
 $ collections_12_mths_ex_med                : num  0 0 0 0 0 0 0 0 0 0 ...
 $ mths_since_last_major_derog               : num  30 NA NA NA NA NA NA 3 NA 75 ...
 $ policy_code                               : num  1 1 1 1 1 1 1 1 1 1 ...
 $ application_type                          : chr  "Individual" "Individual" "Joint App" "Individual" ...
 $ annual_inc_joint                          : num  NA NA 71000 NA NA NA NA NA NA NA ...
 $ dti_joint                                 : num  NA NA 13.8 NA NA ...
 $ verification_status_joint                 : chr  "" "" "Not Verified" "" ...
 $ acc_now_delinq                            : num  0 0 0 0 0 0 0 0 0 0 ...
 $ tot_coll_amt                              : num  722 0 0 0 0 ...
 $ tot_cur_bal                               : num  144904 204396 189699 301500 331730 ...
 $ open_acc_6m                               : num  2 1 0 1 1 0 0 0 2 0 ...
 $ open_act_il                               : num  2 1 1 1 3 1 2 3 1 2 ...
 $ open_il_12m                               : num  0 0 0 0 0 0 0 0 0 2 ...
 $ open_il_24m                               : num  1 1 4 1 3 0 2 4 0 3 ...
 $ mths_since_rcnt_il                        : num  21 19 19 23 14 338 18 13 35 10 ...
 $ total_bal_il                              : num  4981 18005 10827 12609 73839 ...
 $ il_util                                   : num  36 73 73 70 84 99 63 75 57 72 ...
 $ open_rv_12m                               : num  3 2 0 1 4 0 2 0 2 0 ...
 $ open_rv_24m                               : num  3 3 2 1 7 0 3 0 7 2 ...
 $ max_bal_bc                                : num  722 6472 2081 6987 9702 ...
 $ all_util                                  : num  34 29 65 45 78 76 74 55 46 49 ...
 $ total_rev_hi_lim                          : num  9300 111800 14000 67300 34000 ...
 $ inq_fi                                    : num  3 0 2 0 2 0 1 1 2 0 ...
 $ total_cu_tl                               : num  1 0 5 1 1 0 0 0 0 0 ...
 $ inq_last_12m                              : num  4 6 1 0 3 0 1 2 1 1 ...
 $ acc_open_past_24mths                      : num  4 4 6 2 10 0 6 4 7 5 ...
 $ avg_cur_bal                               : num  20701 9733 31617 23192 27644 ...
 $ bc_open_to_buy                            : num  1506 57830 2737 54962 4567 ...
 $ bc_util                                   : num  37.2 27.1 55.9 12.1 77.5 ...
 $ chargeoff_within_12_mths                  : num  0 0 0 0 0 0 0 0 0 0 ...
 $ delinq_amnt                               : num  0 0 0 0 0 0 0 0 0 0 ...
 $ mo_sin_old_il_acct                        : num  148 113 125 36 128 338 142 149 164 155 ...
 $ mo_sin_old_rev_tl_op                      : num  128 192 184 87 210 54 306 55 129 253 ...
 $ mo_sin_rcnt_rev_tl_op                     : num  3 2 14 2 4 32 10 32 1 15 ...
 $ mo_sin_rcnt_tl                            : num  3 2 14 2 4 32 10 13 1 10 ...
 $ mort_acc                                  : num  1 4 5 1 6 0 4 3 1 1 ...
 $ mths_since_recent_bc                      : num  4 2 101 2 4 36 12 32 4 50 ...
 $ mths_since_recent_bc_dlq                  : num  69 NA NA NA 12 NA NA NA NA NA ...
 $ mths_since_recent_inq                     : num  4 0 10 NA 1 NA 10 8 1 10 ...
 $ mths_since_recent_revol_delinq            : num  69 6 NA NA 12 NA NA NA NA NA ...
 $ num_accts_ever_120_pd                     : num  2 0 0 0 0 0 0 1 0 1 ...
 $ num_actv_bc_tl                            : num  2 5 2 4 4 2 4 2 6 3 ...
 $ num_actv_rev_tl                           : num  4 5 3 5 6 3 6 2 9 3 ...
 $ num_bc_sats                               : num  2 13 2 8 5 2 4 3 7 3 ...
 $ num_bc_tl                                 : num  5 17 4 10 9 2 5 3 10 6 ...
 $ num_il_tl                                 : num  3 6 6 2 10 2 7 9 3 5 ...
  [list output truncated]
structure_data
NULL

Précédemment, nous avons pris une vue très globale de la base de données afin d’en avoir un premier aperçu. On va donc pouvoir regarder avec plus de détails les différentes variables qui la composent et de commencer à l’explorer. La cellule, ci-dessous, nous renvoie de nombreuses informations : - Nombre de valeurs nulles par variable ainsi que les proportions en pourcentage ; - Nombre de valeurs manquantes par variable ainsi que les proportions en pourcentage ; - Nombre de valeurs infinies par variable ainsi que les proportions en pourcentage ; - Le type de chaque variable ; - Le nombre de valeurs uniques que comporte chaque variable.

La première chose que l’on voit c’est qu’il ne semble pas avoir de doublons dans la base. Pourquoi ? la variable “Id” qui représente l’identifiant unique Lending Club de chaque emprunteur de la plateforme possède 20 000 valeurs uniques, soit une par client. On remarque, également, que des variables possèdent 100% de valeurs manquantes (à l’instar de la caractéristique “revol_bal_joint”) ou des proportions très poches de 100% (la variable “annual_inc_joint” avec 99.25% de valeurs manquantes). À l’inverse d’autres variables affichent, heuresement, 0% de valeurs manquantes. Il y aura donc un gros travail à réaliser sur le traitement et la gestion des valeurs manquantes dans la base de données.

Description des données

detailled_data <- df_status(data, print_results = FALSE)
detailled_data

Afficher le nombre de valeurs uniques au sein des différentes caractéristiques est très informatif car cela nous donne une information sur la qualité informative de la caractéristique eu égard à l’évènement à modéliser. Illustrons nos propos, si une caractéristique affiche une proportion de 0% de valeurs uniques cela signifie que toutes les observations ont exactement la même valeur pour cette variable. Cette dernière ne permet pas de discriminer les individus pour le phénomène étudié et de facto ne véhicule aucune valeur d’information. Elle pourra être supprimée pour la future analyse. En revanche une variable telle que le revenu annuel d’un emprunteur qui dispose de 100% de valeurs uniques (i.e. soit de 20 000 valeurs différentes) signifie que chaque client possède un revenu différent ce qui peut permettre de discriminer ces clients par rapport à notre variable cible à modéliser. Cette caractéristique peut donc être conservée pour la modélisation future. Il s’agit donc d’identifier ces variables qui sont des constantes afin de les supprimer et éviter tout biais dans notre analyse. Exemple : “member_id”, “issue_d”, “policy_code”, “hardship_length”, “deferral_term”, “next_pymnt_d”, etc.

Description des données

detailled_data <-
  detailled_data %>%
  mutate(uniq_rate = unique / nrow(data))

detailled_data %>%
  select(variable, unique, uniq_rate) %>%
  mutate(unique = unique, uniq_rate = percent(uniq_rate))

Définition des fonctions

# Plot des subplots composé d'un histogram et d'un boxplot
plot_subplot <- function(data, column, bycolumn, title, xtitle, ytitle) {
  
    fig1 <- plot_ly(data, x = ~column, type = "histogram", marker = list(color = "#BCA9F5"))
    fig2 <- plot_ly(data, y = ~column, x = ~bycolumn, type = "box", marker = list(color = "#82caaf"))
    
    fig <- subplot(fig1, fig2, nrows = 2) 
    fig <- fig %>% layout(title = title,
             plot_bgcolor="#FFFFFF", 
             xaxis = list(
               title = xtitle,
               zerolinecolor = "#ffff", 
               zerolinewidth = 2, 
               gridcolor = "ffff"), 
             yaxis = list(
               title = ytitle,
               zerolinecolor = "#ffff", 
               zerolinewidth = 2, 
               gridcolor = "ffff"), 
             showlegend = FALSE,
             showlegend2 = FALSE)
    
    return(fig)
}

# Plot un histogram
plot_histogram <- function(data, column, title, xtitle, ytitle) {
  
    fig <- plot_ly(data, x = ~column, type = "histogram", marker = list(color = '#82caaf'))
    fig <- fig %>% layout(title = title,
             xaxis = list(title = xtitle),
             yaxis = list(title = ytitle))
    
    return(fig)
}

# Plot un boxplot
plot_box <- function(data, column, bycolumn, title, xtitle, ytitle) {
  
    fig <- plot_ly(data, y = ~column, x = ~bycolumn, type = "box", marker = list(color = "#BCA9F5"))
    fig <- fig %>% layout(title = title,
             xaxis = list(title = xtitle),
             yaxis = list(title = ytitle))
    
    return(fig)
}

# Calculer les statistiques descriptives
descriptive_statistic1 <- function(data, column) {
  
    data %>%
      summarise(Minimum = round(min(column), digits = 4),
                Maximum = round(max(column), digits = 4),
                Moyenne = round(mean(column), digits = 4),
                Mediane = round(median(column), digits = 4),
                Variance = round(var(column), digits = 4),
                Volatilite = round(sd(column), digits = 4),
                Kurtosis = round(kurtosis(column), digits = 4),
                Skewness = round(skewness(column), digits = 4))
}

# Calculer les statistiques descriptives
descriptive_statistic2 <- function(data, column) {
    data %>%
      group_by(data$loan_status) %>%
      summarise(Minimum = round(min(column), digits = 4),
                Maximum = round(max(column), digits = 4),
                Moyenne = round(mean(column), digits = 4),
                Mediane = round(median(column), digits = 4),
                Variance = round(var(column), digits = 4),
                Volatilite = round(sd(column), digits = 4),
                Kurtosis = round(kurtosis(column), digits = 4),
                Skewness = round(skewness(column), digits = 4))
}

# Plot un boxplot
give_count <- 
  stat_summary(fun.data = function(x) return(c(y = median(x)*1.06,
                                               label = length(x))),
               geom = "text")

give_mean <- 
  stat_summary(fun.y = mean, colour = "darkgreen", geom = "point", 
               shape = 18, size = 3, show.legend = FALSE)
`fun.y` is deprecated. Use `fun` instead.
ggplot_box <- function(data, xcolumn, ycolumn, bycolumn, title, xtitle, ytitle) {
  
  data %>%
    ggplot(aes(xcolumn, ycolumn)) +
    geom_boxplot(fill = "white", colour = "darkblue", 
                 outlier.colour = "red", outlier.shape = 1) +
    give_count +
    give_mean +
    scale_y_continuous(labels = comma) +
    labs(title = title, x = xtitle, y = ytitle) +
    facet_wrap(bycolumn)
}

EDA

L'objectif de notre EDA n'est pas de visualiser les 151 caractéristiques de notre base de données. Sur la base du dictionnaire de données, de nos connaissances sur le risque de crédit et des recherches que nous avons pu faire, nous allons exposer une analyse graphique et statistique sur les caractéristiques qui nous paraissent les plus importantes dans l'augmentation de la probabilité de défaut. Voici une liste non exhaustive : - L’historique des remboursements du client, s’il les règlent à temps ou non ; - De la signalétique personne (lieu de résidence, locataire ou propriétaire, catégorie socio-professionnelle, etc.) ; - Le montant total dû et la mensualité associée ; - Le solde courant ; - Quand la première ligne de crédit a-t-elle été ouverte ; - Le type de ligne de crédit (revolving, hypothécaire) ; - La raison pour laquelle l’emprunt est contracté ; - Le nombre de lignes de crédit récemment ouverte et le nombre total de lignes que l’emprunteur possède ; - Le nombre de lignes de crédit ouvertes qui sont en défaut ou grave retard de paiement ; - Le nombre d’enquêtes de crédit récentes ; - La note de crédit attribuée au dossier.

Variable : “loan_status”

Il s’agit du statut actuel du prêt. Cette caractéristique prend plusieurs modalités : un prêt remboursé ou non, en cours ou en retard de paiement.

Observation : on remarque que beaucoup de prêts, dans l’historique de la plateforme, sont totalement remboursés (70.8%). Ensuite il y a une part non négligeable de prêts qui sont en cours de remboursement (10.6%) mais qui sont, à l’heure, non remboursés, puis quand même une bonne part de prêts qui ne sont pas du tout remboursés (17.9%). Il y a une très faible minorité de paiements qui sont en retard ou en grâce de paiement (moins de 1%).

Intuition : cette variable sera la cible de nos modèles de Machine Learning supervisés. Il va donc falloir restructurer cette caractéristique afin d’avoir un problème de classification à 2 classes. Notre définition du défaut de paiement est la suivante : si l’emprunteur ne rembourse pas à la date d’échéance fixée par le contrat alors il est considéré en défaut de paiement, et cela même s’il rembourse plusieurs jours / mois / années après. Ainsi, d’un côté nous aurons les emprunteurs ayant totalement remboursés leur emprunt et de l’autre, les emprunteurs restants. À priori, les individus en grâce seront exclus de la modélisation car ils n’ont pas remboursé mais sont en période de grâce. En outre, pour les emprunts en cours de remboursement nous ne savons pas si l’emprunteur est en retard ou non. Ainsi, nous les écarteront également.

data %>% count(loan_status)
fig <- plot_ly(data, labels = ~loan_status, type = "pie", marker = list(colors = c("#BCA9F5", "#82caaf", "#A9BCF5", "#A9F5BC", "#F7BE81", "#F78181")))
fig <- fig %>% layout(title = "Loan status proportion",
         xaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE),
         yaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE))

fig

Pour continuer notre data visualisation, nous allons créer un prédicat nommé “default” qui nous permettra de visualiser plus en détail nos différentes caractéristiques en opposant les emprunteurs en situation de défaillance et nos emprunteurs sains. Ce ré-encodage se base sur notre intuition précédente.

data2 <- data

data2 <- data2[!(data2$loan_status == "Current" | data2$loan_status == "In Grace Period"), ]

default_var <- c("Charged Off", "Late (16-30 days)", "Late (31-120 days)")

data2 <- data2 %>%
  mutate(default = ifelse(!(loan_status %in% default_var), FALSE, TRUE))

data2 %>%
  summarise(default_freq = sum(default / n()))

Nous pouvons voir que suite à cette définition et classification du défaut de paiement, 21% des emprunteurs de notre base de données sont considérés en défaut de paiement tandis que 79% sont des emprunteurs sains.

table(data2$default) / nrow(data2)

    FALSE      TRUE 
0.7934301 0.2065699 

Variable : “loan_amount”

Il s’agit du montant du prêt demandé par l’emprunteur sur la plateforme.

Observation : dans l’ensemble, la distribution des montants des prêts demandés est légèrement étalée vers la droite. Ceci indique une skewness positive (0.61), donc une moyenne supérieure à la médiane. - 50% des prêts accordés sont d’un montant inférieur à 14 000€ (valeur de la médiane). - Les montants des demandes de financement connaissent un pic autour de chaque pallier de 5 000€. - De manière générale, les prêts totalement remboursés sont ceux pour lesquels le montant moyen du prêt est le plus faible. Pour toutes les autres modalités du statut du prêt, les montants moyens de financement sont supérieurs. - Pas d’outliers pour cette variable. Les montants minimums et maximums sont tout à fait normaux et plutôt équilibrés entre les différentes classes. Sauf pour deux classes. Ceci peut venir du fait qu’il s’agisse d’un sample et non du dataset total.

fig <- plot_subplot(data, data$loan_amnt, data$loan_status, "Loan amount variable", "Loan amount", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$loan_amnt)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(loan_amnt), digits = 4),
            Maximum = round(max(loan_amnt), digits = 4),
            Moyenne = round(mean(loan_amnt), digits = 4),
            Mediane = round(median(loan_amnt), digits = 4),
            Variance = round(var(loan_amnt), digits = 4),
            Ecart_type = round(sd(loan_amnt), digits = 4),
            Kurtosis = round(kurtosis(loan_amnt), digits = 4),
            Skewness = round(skewness(loan_amnt), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid du montant octroyé pour le prêt en fonction du grade de crédit Lending Club de l’emprunteur ? Nous remarquons que le montant octroyé a tendance à augmenter avec les grades de crédit Lending Club. C’est-à-dire que les grades les plus risqués sont ceux qui empruntent les plus grands montants en moyenne. Pour la distinction entre les classes, on voit que les emprunteurs en défaut (TRUE) empruntent, en moyenne, très légèrement plus que les emprunteurs sains (FALSE).

ggplot_box(data2, data2$grade, data2$loan_amnt, data2$default, "Loan Amount by Grade", "Grade", "Loan amount \n")

Quid du montant octroyé pour le prêt en fonction de la vérification de la source de revenu annuel de l’emprunteur ? Les montants moyens empruntés sont relativement proches pour les trois modalités de la variable “verification_status”.

data2 %>%
  ggplot(aes(verification_status, loan_amnt)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Loan Amount by verification status", x = "Verification status", y = "Loan amount \n")

Variable : “funded_amnt”

COMMENTAIRES.

fig <- plot_subplot(data, data$funded_amnt, data$loan_status, "Funded amount variable", "Funded amount", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$funded_amnt)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(funded_amnt), digits = 4),
            Maximum = round(max(funded_amnt), digits = 4),
            Moyenne = round(mean(funded_amnt), digits = 4),
            Mediane = round(median(funded_amnt), digits = 4),
            Variance = round(var(funded_amnt), digits = 4),
            Ecart_type = round(sd(funded_amnt), digits = 4),
            Kurtosis = round(kurtosis(funded_amnt), digits = 4),
            Skewness = round(skewness(funded_amnt), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Variable : “int_rate”

C’est le taux d’intérêt du prêt.

Observation : globalement, le taux d’intérêt varie de 5% à 30% avec une distribution plutôt centrée à gauche mais bien étalée à droite (skewness positive : 0.65). On remarque un pic aux alentours de 12/13% (moyenne à 12.2%) puis une décroissance lente jusqu’au maximum de la distribution (28.99%). Quid des différences inter-classe ? Les taux d’intérêt restent relativement proche néanmoins la moyenne des emprunteurs ayant remboursés est de 11.4% tandis que celle des défaillants ainsi que des autres classes elle est supérieure à 14%. Nous retrouvons cette même distinction au niveau de la médiane des distributions. Ceci est plutôt logique, si le risque de défaut augmente, le taux d’intérêt augmente aussi. Nous concluons que, en moyenne, plus le taux d’intérêt est fort, moins le prêt est remboursé.

Notons qu’il semble y avoir plusieurs outliers pour les trois premières classes du graphique. Cela sera à traiter dans le pre-processing.

Ci-dessous, nous allons analyser avec de nombreux détails cette variable qui est une réelle mesure de risque en économie monétaire et bancaire.

fig <- plot_subplot(data, data$int_rate, data$loan_status, "Interest rate variable", "Interest rate", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$int_rate)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(int_rate), digits = 4),
            Maximum = round(max(int_rate), digits = 4),
            Moyenne = round(mean(int_rate), digits = 4),
            Mediane = round(median(int_rate), digits = 4),
            Variance = round(var(int_rate), digits = 4),
            Ecart_type = round(sd(int_rate), digits = 4),
            Kurtosis = round(kurtosis(int_rate), digits = 4),
            Skewness = round(skewness(int_rate), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid de l’évolution des taux d’intérêt selon l’échéance du prêt et le grade de crédit Lending Club de l’emprunteur ? C’est assez perturbant, nous nous attendions à observer une plus forte distinction entre les différentes échéances. En effet, en économie logiquement plus l’horizon temporelle (i.e. ici l’échéance) est lointain et plus les risques sont élevés. Ainsi, normalement le taux d’intérêt à long-terme (60 mois) devrait être supérieur à celui d’un emprunt sur 36 mois car le risque de défaut est plus grand à long-terme. Globalement, les taux d’intérêt sont similaires pour chaque grade de crédit et cela peu importe l’échéance du prêt.

data2 %>%
  ggplot(aes(grade, int_rate)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Interest Rate by Grade", x = "Grade", y = "Interest Rate \n") +
  facet_wrap(~ term)

Taux d’intérêt moyen et médian par grade de crédit Lending club

data2 %>%
  select(int_rate, grade) %>%
  group_by(grade) %>%
  summarise(int_rate_mean = mean(int_rate, na.rm = TRUE),
            int_rate_median = median(int_rate, na.rm = TRUE),
            n = n())
`summarise()` ungrouping output (override with `.groups` argument)

Quid du taux d’intérêt selon le statut de l’emprunteur et sa caractéristique “owner_ship” ? La première chose à relever est le fait que les taux d’intérêt sont bien plus élevés pour les emprunteurs en situation de défaillance. Dans un second temps, nous remarquons que les emprunteurs qui sont en location immobilière possèdent un taux d’intérêt moyen plus élevé que ceux étant propriétaires ou en hypothèques. De manière économique cela peut être cohérent car la banque ou l’investisseur sait que si cet emprunteur ne peut rembourser son emprunt, il possède toujours un certain patrimoine pouvant servir à rembourser ses dettes.

ggplot_box(data2, data2$home_ownership, data2$int_rate, data2$default, "Interest Rate by Home Ownership", "Home Ownership", "Interest rate \n")

Quid du taux d’intérêt selon le statut de l’emprunteur et sa caractéristique “purpose” ? Comme précédemment, nous notons que les taux d’intérêt moyens sont légèrement plus élevés pour les clients en défaut de paiement. La question que l’on se pose ici est de savoir si le fait d’emprunter pour un objectif précis augmente la probabilité de faire défaut et surtout si, pour un même objectif d’investissement, il y a une différence inter-classe. C’est bien ce que nous remarquons. Le fait d’emprunter pour la modalité “small business” (emprunt pour la création et le lancement de son entreprise) accroît très fortement le taux d’intérêt et cela peu importe le pattern de défaut ou non de l’emprunteur. Le second motif faisant accroître le taux d’intérêt est l’emprunt pour l’achat d’une maison. Ceci est cohérent avec le fait que nous avions vu que les clients locataires avaient un taux d’intérêt plus élevé sachant que c’est potentiellement ces derniers qui contractent des prêts pour l’achat d’une maison.

Globalement nous remarquons bien que les taux d’intérêt possèdent un potentiel pouvoir discriminant afin de différencier les emprunteurs en défaut ou non.

data2 %>%
  ggplot(aes(purpose, int_rate)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  facet_wrap(~ default) +
  theme(axis.text.x = element_text(angle = 45))

  labs(title="Interest Rate by Loan Purpose", x = "Loan purpose", y = "Interest rate \n")
$x
[1] "Loan purpose"

$y
[1] "Interest rate \n"

$title
[1] "Interest Rate by Loan Purpose"

attr(,"class")
[1] "labels"

Quid du taux d’intérêt selon le statut de l’emprunteur et sa caractéristique “verification_status” ? Comme précédemment, le taux d’intérêt augmente selon de statut de l’emprunteur (TRUE ou FLASE). Les taux d’intérêt sont plus faibles, en moyenne, pour les emprunteurs dont l’auto-déclaration du revenu n’a pas été vérifiée.

ggplot_box(data2, data2$verification_status, data2$int_rate, data2$default, "Interest Rate by Verification Status", "Verification status", "Interest rate \n")

Variable : “installment”

Il s’agit de la mensualité due par l’emprunteur si le prêt est accordé.

Observation : le montant des versements varie largement, avec une distribution assez étalée vers la droite ce qui montre la présence de très grosses mensualités (mensualité maximale : 1354.66$). Avec les boxplot, on ne voit pas de différence significative entre les mensualités d’un emprunteur qui a totalement remboursé son crédit par rapport à celui en défaut sauf pour les mensualités minimales et maximales. Dans l’ensemble, les mensualités moyennes des classes sont relativement proches. Forcément, c’est les emprunteurs qui possèdent les plus faibles mensualités en moyenne. Pour la médiane, on observe la même chose avec une distinction inter-classe légèrement plus forte. En revanche, c’est un emprunteur qui a effectivement remboursé son emprunt qui détient la mensualité la plus élevée de notre échantillon. Une fois encore, plusieurs outliers sont identifiés au sein de cette caractéristique. Nous verrons lors du pre-processsing comment les traiter.

fig1 <- plot_ly(data, x = ~data$installment, type = "histogram", marker = list(color = "#BCA9F5"))
fig2 <- plot_ly(data, y = ~data$installment, x = ~data$loan_status, type = "box", marker = list(color = "#82caaf"))

fig <- subplot(fig1, fig2, nrows = 2) 
fig <- fig %>% layout(title = "Installment variable",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           title = "Installment",
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           title = "Count",
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig
stat_desc <- descriptive_statistic1(data, data$installment)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(installment), digits = 4),
            Maximum = round(max(installment), digits = 4),
            Moyenne = round(mean(installment), digits = 4),
            Mediane = round(median(installment), digits = 4),
            Variance = round(var(installment), digits = 4),
            Ecart_type = round(sd(installment), digits = 4),
            Kurtosis = round(kurtosis(installment), digits = 4),
            Skewness = round(skewness(installment), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid de la mensualité selon le montant emprunté et la statut de l’emprunteur ?

ggplot_box(data2, data2$installment, data2$loan_amnt, data2$default, "Loan amount by Installment", "Installment", "Loan amount \n")

Variables catégorielles

Nous allons faire un focus sur les distributions des différentes modalités pour 6 variables qualitatives. - “home_ownership” - “term” - “verification_status” - “purpose” - “grade” - “pub_rec_bankruptcies”

Observations : - La grande majorité des personnes demandant des prêts sont des personnes étant en location ou en hypothèque => emprunteurs en situation précaire. - La très grande majorité des prêts financés sur la plateforme sont d’une durée de 36 mois. Environ 75% du total des prêts sont accordés pour une durée de 3 ans, tandis que seulement 25% des prêts sont accordés pour une durée de 5 ans. - La plupart des prêts approuvés sont de qualité supérieure. Néanmoins, une part non négligeable de prêts sont accordés sans vérification. - Très peu de prêts sont accordés aux personnes ayant déjà fait faillite, et donc ayant une mauvaise note. - La très très grande majorité des prêts sont accordés pour des personnes n’ayant déclarées aucune faillite publique. - Le motif de consolidation de la dette est de loin le principal motif de demande de prêt => emprunteurs en situation précaire.

fig1 <- plot_histogram(data, data$home_ownership, "Home ownership distribution", "Home ownership", "Count")
fig2 <- plot_histogram(data, data$term, "Loan term distribution", "Term", "Count")
fig3 <- plot_histogram(data, data$verification_status, "Verified status proportion", "Verified status", "Count")
fig4 <- plot_histogram(data, data$grade, "Credit grade repartition", "Grade", "Count")
fig5 <- plot_histogram(data, data$pub_rec_bankruptcies, "Public bankruptcy distribution", "Public bankruptcy", "Count")
fig6 <- plot_histogram(data, data$purpose, "Loan purpose repartition", "Purpose", "Count")

fig <- subplot(fig1, fig2, fig3, fig4, fig5, fig6, nrows = 3, titleY = TRUE, titleX = TRUE, margin = 0.1)
fig <- fig %>% layout(title = "Cetgorical variable",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig

Variable : “sub_grade”

La plateforme Lending Club attribue un grade ainsi qu’un sous-grade à chaque prêt.

Observation : - Les prêts de catégorie A et B sont les plus sûrs. - Les prêts de catégorie D, E, F et G sont moins sûrs. - Les prêts impayés sont en majorité de catégorie C et D. - Les prêts à partir de la catégorie E, F et G sont risqués et moins nombreux. - Ainsi, on peut dire que le système de classement de Lending Club fonctionne.

fig <- plot_histogram(data, data$sub_grade, "Credit sub-grade distribution", "Sub-grade", "Count")
fig
fig <- plot_box(data, data$grade, data$loan_status, "Credit grade distribution", "Grade", "Count")
fig
fig <- plot_box(data, data$sub_grade, data$loan_status, "Credit sub-grade distribution", "Sub-grade", "Count")
fig

Variable : annual income

Le revenu annuel auto-déclaré par l’emprunteur lors de son inscription.

Observation : lorsque l’on regarde la répartition des revenus annuels, on voit que la distribution comporte de nombreuses valeurs extrêmes car la distribution est leptokurtic (kurtosis égale à 970.3) et très très étalée vers la droite (la preuve avec une skewness de 18.7). Nous observons un écart de 10 000$ entre la médiane et la moyenne. Les moyennes et médianes des différentes classes sont relativement “proches”. En revanche nous pouvons voir que pour les emprunteurs en période de grâce, leur moyenne et médiane sont anormalement élevées en raison du faible nombre d’observations de cette classe dans notre échantillon.

fig <- plot_subplot(data, data$annual_inc, data$loan_status, "Annual income variable", "Annual income", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$annual_inc)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(annual_inc), digits = 4),
            Maximum = round(max(annual_inc), digits = 4),
            Moyenne = round(mean(annual_inc), digits = 4),
            Mediane = round(median(annual_inc), digits = 4),
            Variance = round(var(annual_inc), digits = 4),
            Ecart_type = round(sd(annual_inc), digits = 4),
            Kurtosis = round(kurtosis(annual_inc), digits = 4),
            Skewness = round(skewness(annual_inc), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid du revenu annuel auto-déclaré selon le grade de crédit Lending Club de l’emprunteur et le statut de l’emprunteur ? Nous remarquons que les grades les mieux notés sont ceux qui affichent les plus forts revenus annuels. Les revenus décroissent avec les grades.

ggplot_box(data2, data2$grade, data2$annual_inc, data2$default, "Annual income by Grade", "Grade", "Annual income \n")

Quid du revenu annuel auto-déclaré selon le grade de crédit Lending Club de l’emprunteur et l’échéance de crédit ? Nous avons l’impression que les emprunteurs avec les plus hauts revenus et les meilleurs grades empruntent à court-terme tandis que ceux avec les plus faibles revenus annuels et les plus mauvais grades empruntent davantage à long-terme.

data2 %>%
  ggplot(aes(grade, annual_inc)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Annual income by Grade", x = "Grade", y = "Annual income \n") +
  facet_wrap(~ term)

Variable : addr state

L’état fourni par l’emprunteur dans la demande de prêt.

Observation : les prêts les plus importants proviennent de l’Etat de la Californie, suivi par l’Etat de New-York, de la Floride et du Texas. Il faut s’y attendre car ce sont également les trois États américains les plus peuplés. Les États ayant un taux de défaillance plus élevé ont un nombre de prêts très faible. Le pourcentage n’est donc PAS significatif et doit être ignoré. Globalement, cette variable n’affecte pas la propension au défaut.

fig <- plot_histogram(data, data$addr_state, "Borrower's state", "US state", "Count")
fig

Est-ce que certains états des Etats-Unis affichent des taux de défaut nettement supérieurs à d’autres états ? - Oklahoma : 31.35% - Nebraska : 30.43% Les états de l’Oklahoma et du Nebraska sont ceux affichant un taux de défaut supérieur à 30%.

  • Oregon : 13.25%
  • Dakota du Sud : 12.50% À l’inverse, les états de l’Oregon et du Dakota du Sud sont ceux affichant les plus faibles taux de défaut.

Les états peuvent donc avoir un pouvoir informatif dans la santé financière des emprunteurs. Forcément dans les états où le taux d’emplois, le taux d’urbanisation est fort, le taux de défaut est plus faible.

default_rate_state <- 
  data2 %>%
  select(default, addr_state) %>%
  group_by(addr_state) %>%
  summarise(default_rate = sum(default, na.rm = TRUE) / n())
`summarise()` ungrouping output (override with `.groups` argument)
default_rate_state

Variable : “delinq_2yrs”

Le nombre d’incidences d’impayés de plus de 30 jours dans le dossier de crédit de l’emprunteur au cours des deux dernières années.

Observation : les risques de défaillance sont plus élevés si cette variable est supérieure à 1. Heureusement sa médiane est égale à 0. Nous pouvons voir qu’il n’y a pas une très grande différence entre les classes. Par exemple, la moyenne des emprunteurs en défaut est de 0.36 nombres d’incident sur les 2 dernières années contre 0.33 nombres d’incident pour les emprunteurs ayant totalement remboursés leur emprunt.

fig <- plot_histogram(data, data$delinq_2yrs, "2 years delinq distribution", "2 years delinq", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$delinq_2yrs)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(delinq_2yrs), digits = 4),
            Maximum = round(max(delinq_2yrs), digits = 4),
            Moyenne = round(mean(delinq_2yrs), digits = 4),
            Mediane = round(median(delinq_2yrs), digits = 4),
            Variance = round(var(delinq_2yrs), digits = 4),
            Ecart_type = round(sd(delinq_2yrs), digits = 4),
            Kurtosis = round(kurtosis(delinq_2yrs), digits = 4),
            Skewness = round(skewness(delinq_2yrs), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid du nombre de délinquance sur les 2 dernières années selon le grade de crédit Lending Club de l’emprunteur et le statut de l’emprunteur ? Avec l’aide des outliers, nous pouvons noter que le nombre de délinquance sur les 2 dernières années a tendance à augmenter pour les emprunteurs en défaut de paiement et d’autant plus pour les grades de crédit les plus mauvais pour les clients en défaut.

ggplot_box(data2, data2$grade, data2$delinq_2yrs, data2$default, "Number of 2y delinq by Grade", "Grade", "Number of 2y delinq \n")

Quid du nombre de délinquance sur les 2 dernières années selon le grade de crédit Lending Club de l’emprunteur et l’échéance de crédit ? Avec l’aide des outliers, nous pouvons noter que le nombre de délinquance sur les 2 dernières années a tendance à augmenter pour les emprunts en défaut de paiement et d’autant plus pour les grades de crédit les plus mauvais pour les emprunts de long-terme.

data2 %>%
  ggplot(aes(grade, delinq_2yrs)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Number of 2y delinq by Grade", x = "Grade", y = "Number of 2y delinq \n")+
  facet_wrap(~ term)

Variable : “inq_last_6mths”

Nombre de demandes de renseignements au cours des 6 derniers mois (à l’exclusion des demandes de renseignements sur les véhicules et les prêts hypothécaires).

Observation : les emprunteurs qui possèdent plus de deux demandes de renseignements ont un taux de défaillance commençant à être significativement plus élevé.

fig <- plot_histogram(data, data$inq_last_6mths, "Request for information distribution", "Request for information", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$inq_last_6mths)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(inq_last_6mths), digits = 4),
            Maximum = round(max(inq_last_6mths), digits = 4),
            Moyenne = round(mean(inq_last_6mths), digits = 4),
            Mediane = round(median(inq_last_6mths), digits = 4),
            Variance = round(var(inq_last_6mths), digits = 4),
            Ecart_type = round(sd(inq_last_6mths), digits = 4),
            Kurtosis = round(kurtosis(inq_last_6mths), digits = 4),
            Skewness = round(skewness(inq_last_6mths), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid du nombre de demandes de renseignements au cours des 6 derniers mois selon le grade de crédit Lending Club de l’emprunteur et le statut de l’emprunteur ? En moyenne, plus le grade de crédit se détériore et plus le nombre de demandes de renseignements au cours des 6 derniers mois tend à augmenter pour les deux classes.

ggplot_box(data2, data2$grade, data2$inq_last_6mths, data2$default, "Number of 6m inq by Grade", "Grade", "Number of 6m inq \n")

Quid du nombre de demandes de renseignements au cours des 6 derniers mois selon le grade de crédit Lending Club de l’emprunteur et l’échéance de crédit ? En moyenne, plus le grade de crédit se détériore et plus le nombre de demandes de renseignements au cours des 6 derniers mois tend à augmenter pour les deux horizons d’emprunt. Nous pouvons tout de même remarquer que la moyenne du nombre de demandes de renseignements au cours des 6 derniers mois a tendance à augmenter plus lentement pour les emprunts sur 60 mois que sur 36. En général, c’est à partir du grade D que la moyenne augmente assez fortement par rapport au grade précédent.

data2 %>%
  ggplot(aes(grade, inq_last_6mths)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Number of 6m inq by Grade", x = "Grade", y = "Number of 6m inq \n")+
  facet_wrap(~ term)

Variable : “open_acc”

Il s’agit du nombre de lignes de crédit ouvertes dans le dossier de crédit de l’emprunteur.

Observation : il n’y a pas de différence significative entre les lignes de crédit des prêts en défaut, ou autre, et celles des prêts entièrement remboursés (moyenne et médiane très proches). Notons qu’il y a de nombreux outliers à traiter.

fig <- plot_subplot(data, data$open_acc, data$loan_status, "Open credit line variable", "Open credit line", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$open_acc)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(open_acc), digits = 4),
            Maximum = round(max(open_acc), digits = 4),
            Moyenne = round(mean(open_acc), digits = 4),
            Mediane = round(median(open_acc), digits = 4),
            Variance = round(var(open_acc), digits = 4),
            Ecart_type = round(sd(open_acc), digits = 4),
            Kurtosis = round(kurtosis(open_acc), digits = 4),
            Skewness = round(skewness(open_acc), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Variable : “total_acc”

Il s’agit du nombre total de lignes de crédit figurant actuellement dans le dossier de crédit de l’emprunteur.

Observation : il n’y a pas de différence significative entre les lignes de crédit des prêts en défaut, ou autre, et celles des prêts entièrement remboursés (moyenne et médiane très proches). Notons qu’il y a de nombreux outliers à traiter.

fig <- plot_subplot(data, data$total_acc, data$loan_status, "Totla credit line variable", "Totla credit line", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$total_acc)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(total_acc), digits = 4),
            Maximum = round(max(total_acc), digits = 4),
            Moyenne = round(mean(total_acc), digits = 4),
            Mediane = round(median(total_acc), digits = 4),
            Variance = round(var(total_acc), digits = 4),
            Ecart_type = round(sd(total_acc), digits = 4),
            Kurtosis = round(kurtosis(total_acc), digits = 4),
            Skewness = round(skewness(total_acc), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Quid du nombre de lignes de crédit ouvertes selon le grade de crédit Lending Club de l’emprunteur et le statut de l’emprunteur ? Ici, nous aurions pu nous attendre au fait que les emprunteurs en défaut aient davantage de lignes de crédit ouvertes. En réalité cela n’est pas vraiment vérifié. On remarque même qu’il n’y a pas vraiment de différence entre les grades de crédit. Par exemple pour les clients sains, le grade A possède, en moyenne, environ 25 lignes de crédit ouvertes au total sur toutes leur vie tandis que le grade G un peu moins. Attention cette interprétation est à prendre avec de grosses pincettes étant donné que nous n’avons pas autant d’observations dans ces deux grades de crédit et qu’ils ne sont donc pas très comparables. La légère décroissance du nombre de lignes de crédit ouvertes par emprunteur s’explique par la décroissance du nombre d’observations dans les grades les plus mauvais.

ggplot_box(data2, data2$grade, data2$total_acc, data2$default, "Number of opened credit line by Grade", "Grade", "Number of opened credit line \n")

Variable : “last_pymnt_amnt”

Dernier montant total du paiement reçu.

Observation : le montant du dernier versement reçu est nettement inférieur pour les prêts impayés par rapport aux prêts entièrement remboursés. Il y a un écart assez fort entre les prêts totalement remboursés et les autres : la moyenne et médiane sont relativement bien plus élevées (moyenne fully paid 5837.84 contre moyenne charged off 455.21). De nombreux outliers pour la modalité des prêts totalement remboursés.

fig <- plot_subplot(data, data$last_pymnt_amnt, data$loan_status, "Total paid amount variable", "Total paid amount", "Count")
fig
stat_desc <- descriptive_statistic1(data, data$last_pymnt_amnt)
stat_desc
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(last_pymnt_amnt), digits = 4),
            Maximum = round(max(last_pymnt_amnt), digits = 4),
            Moyenne = round(mean(last_pymnt_amnt), digits = 4),
            Mediane = round(median(last_pymnt_amnt), digits = 4),
            Variance = round(var(last_pymnt_amnt), digits = 4),
            Ecart_type = round(sd(last_pymnt_amnt), digits = 4),
            Kurtosis = round(kurtosis(last_pymnt_amnt), digits = 4),
            Skewness = round(skewness(last_pymnt_amnt), digits = 4))
`summarise()` ungrouping output (override with `.groups` argument)

Variable : FICO score

  • fico_range_high
  • fico_range_low
  • last_fico_range_high
  • last_fico_range_low

Les scores de crédit FICO sont une méthode de quantification et d’évaluation de la solvabilité d’une personne. Les scores vont de 300 à 850, ceux compris entre 670 et 739 étant considérés comme de “bons” antécédents de crédit, de 740 à 799 comme de “très bons” antécédents de crédit et les scores supérieurs à 800 sont considérés comme d’ “excellent” antécédents de crédit.

Observation : on remarque bien évidement que plus le score de FICO est élevé, en moyenne, plus le risque de défaut est faible.

Dans un premier temps on regarde la limite inférieure de la fourchette à laquelle appartient le FICO de l’emprunteur au moment de l’octroi du prêt. On voit que la distribution des scores est très très étalée vers la droite. Il y a donc une skewness fortement positive et la présence de valeurs extrêmement positives.

Dans un second temps, on regarde la fourchette de limites à laquelle appartient le dernier FICO tiré de l’emprunteur. On retrouve la même conclusion : plus le score de FICO est élevé, plus le risque de défaut est faible en moyenne. Concernant la distribution des scores, elle semble relativement centrée sur de “bons” score de FICO.

fig <- plot_subplot(data, data$fico_range_high, data$loan_status, "High FICO variable", "High FICO", "Count")
fig
fig <- plot_subplot(data, data$fico_range_low, data$loan_status, "Low FICO variable", "Low FICO", "Count")
fig
fig <- plot_subplot(data, data$last_fico_range_high, data$loan_status, "Last high FICO variable", "Last high FICO", "Count")
fig
fig <- plot_subplot(data, data$last_fico_range_low, data$loan_status, "Last low FICO variable", "Last low FICO", "Count")
fig

Variables :

  • last_fico_range_high
  • last_fico_range_low
  • grade
  • sub_grade

Observation : comme nous l’attendions, meilleure est la note de crédit accordée à l’emprunteur (grade et sub-grade), meilleur est son score de FICO. Ceci est logique, un bon score de FICO correspond naturellement à une bonne notation de crédit pour l’emprunteur.

fig1 <- plot_box(data, data$last_fico_range_high, data$grade, "Last high FICO variable", "Last high FICO", "Count")
fig2 <- plot_box(data, data$last_fico_range_low, data$grade, "Last low FICO variable", "Last low FICO", "Count")

fig <- subplot(fig1, fig2, nrows = 2, titleY = TRUE, titleX = TRUE, margin = 0.1)
fig <- fig %>% layout(title = "Last FICO by grade",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig
fig1 <- plot_box(data, data$last_fico_range_high, data$sub_grade, "Last high FICO variable", "Last high FICO", "Count")
fig2 <- plot_box(data, data$last_fico_range_low, data$sub_grade, "Last low FICO variable", "Last low FICO", "Count")

fig <- subplot(fig1, fig2, nrows = 2, titleY = TRUE, titleX = TRUE, margin = 0.1)
fig <- fig %>% layout(title = "Last FICO by grade",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig

Synthèse de l’EDA

Caractéristiques potentiellement intéressantes

data3 <- subset(data2, select = c("default", "loan_amnt", "funded_amnt", "int_rate", "installment", "annual_inc", "delinq_2yrs", "inq_last_6mths", "mths_since_last_delinq", "open_acc", "total_acc", "fico_range_high", "term", "grade", "home_ownership", "verification_status", "purpose", "addr_state", "application_type", "pub_rec_bankruptcies"))

str(data3)
'data.frame':   17839 obs. of  20 variables:
 $ default               : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...
 $ loan_amnt             : num  3600 24700 20000 10400 11950 ...
 $ funded_amnt           : num  3600 24700 20000 10400 11950 ...
 $ int_rate              : num  14 12 10.8 22.4 13.4 ...
 $ installment           : num  123 820 433 290 405 ...
 $ annual_inc            : num  55000 65000 63000 104433 34000 ...
 $ delinq_2yrs           : num  0 1 0 1 0 0 1 0 0 0 ...
 $ inq_last_6mths        : num  1 4 0 3 0 0 0 1 0 0 ...
 $ mths_since_last_delinq: num  30 6 NA 12 NA 49 3 NA 75 NA ...
 $ open_acc              : num  7 22 6 12 5 12 8 14 8 17 ...
 $ total_acc             : num  13 38 18 35 6 27 15 23 18 24 ...
 $ fico_range_high       : num  679 719 699 699 694 684 709 689 704 704 ...
 $ term                  : chr  " 36 months" " 36 months" " 60 months" " 60 months" ...
 $ grade                 : chr  "C" "C" "B" "F" ...
 $ home_ownership        : chr  "MORTGAGE" "MORTGAGE" "MORTGAGE" "MORTGAGE" ...
 $ verification_status   : chr  "Not Verified" "Not Verified" "Not Verified" "Source Verified" ...
 $ purpose               : chr  "debt_consolidation" "small_business" "home_improvement" "major_purchase" ...
 $ addr_state            : chr  "PA" "SD" "IL" "PA" ...
 $ application_type      : chr  "Individual" "Individual" "Joint App" "Individual" ...
 $ pub_rec_bankruptcies  : num  0 0 0 0 0 0 0 1 0 0 ...

Réaliser des graphiques de densité avec KDE nous permet de vraiment visualiser la distinction inter-classe. Pour les variables continues, on remarque bien que certaines caractéristiques apportent une bonne information. Quelques exemples : - Le score de FICO, c’est assez léger mais nous voyons bien que pour les emprunteurs n’étant pas en défaut les scores ont tendance à être supérieur. On voit même que pour la classe TRUE il y a un pic d’observation au début de la distribution ce qui montre qu’une grosse par des emprunteurs en défaut possèdent de faibles scores de FICO ; - La variable du taux d’intérêt permet aussi de bien montrer le clivage entre les deux classes avec des taux qui sont plus élevés pour les emprunteurs en défaut ; - Les emprunteurs en défaillance ont également tendance à emprunter de plus gros montants, la majorité des emprunteurs sains empruntent quasiment le montant moyen octroyé (10 / 12k $) ; - Le nombre total de lignes de crédit ouvertes n’est pas vraiment discriminant afin de dissocier les deux classes comme nous l’avions notifié précédemment lors de l’analyse de la caractéristique ; - Notons également que les caractéristiques “loan_amnt” et “funded_amnt” ont une distribution de valeurs très similaires ce qui indiquerait une forte redondance d’information donc une mutli-colinéarité imparfaite à supprimer pour ne pas biaiser notre future modélisation.

Plot des caractéristiques quantitatives intéressantes

num_vars <- data3 %>% sapply(is.numeric) %>% which() %>% names()

data3 %>%
  select_(.dots = num_vars) %>%
  gather(measure, value) %>%
  mutate(default = factor(rep(x = data3$default, 
                              length.out = length(num_vars) * dim(data3)[1]), 
                          levels = c("TRUE", "FALSE"))) %>%
  ggplot(data = ., aes(x = value, fill = default, 
                       color = default, order = -default)) +
  geom_density(alpha = 0.3, size = 0.5) +
  scale_fill_brewer(palette = "Set1") +
  scale_color_brewer(palette = "Set1") +
  facet_wrap( ~ measure, scales = "free", ncol = 3)
`select_()` was deprecated in dplyr 0.7.0.
Please use `select()` instead.

Concernant les variables catégorielles : - Les demandes de prêt sont généralement pour un emprunt seul et pas conjoint ; - La proportion d’emprunteur en défaut est élevée dans les grades B, C et D ; - La proportion d’emprunteur en défaut est élevée pour les emprunteurs en hypothèque ou en location immobilière ; - De nombreux emprunteurs défaillants ont obtenu un prêt pour le motif de la consolidation de dette très principalement ; - L’échéance de l’emprunt et la vérification du statut ne permettent pas de confondre les deux types d’emprunteur car les modalités des variables affichent les mêmes proportions.

Plot des caractéristiques qualitatives intéressantes

char_vars <- data3 %>% sapply(is.character) %>% which() %>% names()

data3 %>%
  select_(.dots = char_vars) %>%
  gather(measure, value) %>%
  mutate(default = factor(rep(x = data3$default, 
                              length.out = length(char_vars) * dim(data3)[1]), 
                          levels = c("TRUE", "FALSE"))) %>%
  ggplot(data = ., aes(x = value, fill = default, 
                       color = default, order = -default)) +
  geom_histogram(stat = "count", alpha = 0.5) +
  scale_fill_brewer(palette = "Set1") +
  scale_color_brewer(palette = "Set1") +
  facet_wrap( ~ measure, scales = "free", ncol = 3)
Ignoring unknown parameters: binwidth, bins, pad


---
title: "EDA notebook"
output:
  word_document: default
  html_notebook: default
  pdf_document: default
---

BARBEY Charlotte et PRUTKI Lucas

M2 MoSEF - Data Mining


# Exploratory Data Analysis (EDA)


#### Librairies
```{r}
# Définir les librairies que l'on va utiliser
libraries_used <- 
  c("dplyr", "funModeling", "ggplot2", "PerformanceAnalytics", "plotly", "scales", "tidyr", "tinytex")

# Vérification des librairies installées
libraries_missing <- 
  libraries_used[!(libraries_used %in% installed.packages()[,"Package"])]

# Installer les librairies manquantes
if(length(libraries_missing)) install.packages(libraries_missing)
```


#### Import des librairies
```{r }

library(dplyr)
library(funModeling)
library(ggplot2)
library(PerformanceAnalytics)
library(plotly)
library(scales)
library(tidyr)
library(tinytex)
```

-------------------------------------------------------------------------------------------------

#### Import des données

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
knitr::opts_knit$set(root.dir = "/Users/charlotte/Desktop/projet_datamining/data/")
```


```{r}
data <- read.csv("data_lending_club.csv")
```


La base de données comporte 151 variables. Nous n'allons pas toutes les regarder une par une. en revanche, nous allons cibler les plus intéressantes et celles qui sont susceptibles d'expliquer au mieux pourquoi un investisseur pourrait faire un défaut de paiement.
En outre, l'exploration graphique de la base de données vise aussi à comprendre nos données, à savoir comment les nettoyer mais aussi et surtout à émettre nos premières hypothèses quant à la problématique posée par le projet d'investissement.

#### Description des données
```{r}
structure_data <- str(data)
structure_data
```


Précédemment, nous avons pris une vue très globale de la base de données afin d'en avoir un premier aperçu. On va donc pouvoir regarder avec plus de détails les différentes variables qui la composent et de commencer à l'explorer.
La cellule, ci-dessous, nous renvoie de nombreuses informations : 
- Nombre de valeurs nulles par variable ainsi que les proportions en pourcentage ;
- Nombre de valeurs manquantes par variable ainsi que les proportions en pourcentage ;
- Nombre de valeurs infinies par variable ainsi que les proportions en pourcentage ;
- Le type de chaque variable ;
- Le nombre de valeurs uniques que comporte chaque variable.

La première chose que l'on voit c'est qu'il ne semble pas avoir de doublons dans la base. Pourquoi ? la variable "Id" qui représente l'identifiant unique Lending Club de chaque emprunteur de la plateforme possède 20 000 valeurs uniques, soit une par client.
On remarque, également, que des variables possèdent 100% de valeurs manquantes (à l'instar de la caractéristique "revol_bal_joint") ou des proportions très poches de 100% (la variable "annual_inc_joint" avec 99.25% de valeurs manquantes). À l'inverse d'autres variables affichent, heuresement, 0% de valeurs manquantes.
Il y aura donc un gros travail à réaliser sur le traitement et la gestion des valeurs manquantes dans la base de données.

#### Description des données
```{r}
detailled_data <- df_status(data, print_results = FALSE)
detailled_data
```


Afficher le nombre de valeurs uniques au sein des différentes caractéristiques est très informatif car cela nous donne une information sur la qualité informative de la caractéristique eu égard à l'évènement à modéliser. Illustrons nos propos, si une caractéristique affiche une proportion de 0% de valeurs uniques cela signifie que toutes les observations ont exactement la même valeur pour cette variable. Cette dernière ne permet pas de discriminer les individus pour le phénomène étudié et de facto ne véhicule aucune valeur d'information. Elle pourra être supprimée pour la future analyse.
En revanche une variable telle que le revenu annuel d'un emprunteur qui dispose de 100% de valeurs uniques (i.e. soit de 20 000 valeurs différentes) signifie que chaque client possède un revenu différent ce qui peut permettre de discriminer ces clients par rapport à notre variable cible à modéliser. Cette caractéristique peut donc être conservée pour la modélisation future.
Il s'agit donc d'identifier ces variables qui sont des constantes afin de les supprimer et éviter tout biais dans notre analyse.
Exemple : "member_id", "issue_d", "policy_code", "hardship_length", "deferral_term", "next_pymnt_d", etc.

#### Description des données
```{r}
detailled_data <-
  detailled_data %>%
  mutate(uniq_rate = unique / nrow(data))

detailled_data %>%
  select(variable, unique, uniq_rate) %>%
  mutate(unique = unique, uniq_rate = percent(uniq_rate))
```

-------------------------------------------------------------------------------------------------

#### Définition des fonctions
```{r}
# Plot des subplots composé d'un histogram et d'un boxplot
plot_subplot <- function(data, column, bycolumn, title, xtitle, ytitle) {
  
    fig1 <- plot_ly(data, x = ~column, type = "histogram", marker = list(color = "#BCA9F5"))
    fig2 <- plot_ly(data, y = ~column, x = ~bycolumn, type = "box", marker = list(color = "#82caaf"))
    
    fig <- subplot(fig1, fig2, nrows = 2) 
    fig <- fig %>% layout(title = title,
             plot_bgcolor="#FFFFFF", 
             xaxis = list(
               title = xtitle,
               zerolinecolor = "#ffff", 
               zerolinewidth = 2, 
               gridcolor = "ffff"), 
             yaxis = list(
               title = ytitle,
               zerolinecolor = "#ffff", 
               zerolinewidth = 2, 
               gridcolor = "ffff"), 
             showlegend = FALSE,
             showlegend2 = FALSE)
    
    return(fig)
}

# Plot un histogram
plot_histogram <- function(data, column, title, xtitle, ytitle) {
  
    fig <- plot_ly(data, x = ~column, type = "histogram", marker = list(color = '#82caaf'))
    fig <- fig %>% layout(title = title,
             xaxis = list(title = xtitle),
             yaxis = list(title = ytitle))
    
    return(fig)
}

# Plot un boxplot
plot_box <- function(data, column, bycolumn, title, xtitle, ytitle) {
  
    fig <- plot_ly(data, y = ~column, x = ~bycolumn, type = "box", marker = list(color = "#BCA9F5"))
    fig <- fig %>% layout(title = title,
             xaxis = list(title = xtitle),
             yaxis = list(title = ytitle))
    
    return(fig)
}

# Calculer les statistiques descriptives
descriptive_statistic1 <- function(data, column) {
  
    data %>%
      summarise(Minimum = round(min(column), digits = 4),
                Maximum = round(max(column), digits = 4),
                Moyenne = round(mean(column), digits = 4),
                Mediane = round(median(column), digits = 4),
                Variance = round(var(column), digits = 4),
                Volatilite = round(sd(column), digits = 4),
                Kurtosis = round(kurtosis(column), digits = 4),
                Skewness = round(skewness(column), digits = 4))
}

# Calculer les statistiques descriptives
descriptive_statistic2 <- function(data, column) {
    data %>%
      group_by(data$loan_status) %>%
      summarise(Minimum = round(min(column), digits = 4),
                Maximum = round(max(column), digits = 4),
                Moyenne = round(mean(column), digits = 4),
                Mediane = round(median(column), digits = 4),
                Variance = round(var(column), digits = 4),
                Volatilite = round(sd(column), digits = 4),
                Kurtosis = round(kurtosis(column), digits = 4),
                Skewness = round(skewness(column), digits = 4))
}

# Plot un boxplot
give_count <- 
  stat_summary(fun.data = function(x) return(c(y = median(x)*1.06,
                                               label = length(x))),
               geom = "text")

give_mean <- 
  stat_summary(fun.y = mean, colour = "darkgreen", geom = "point", 
               shape = 18, size = 3, show.legend = FALSE)

ggplot_box <- function(data, xcolumn, ycolumn, bycolumn, title, xtitle, ytitle) {
  
  data %>%
    ggplot(aes(xcolumn, ycolumn)) +
    geom_boxplot(fill = "white", colour = "darkblue", 
                 outlier.colour = "red", outlier.shape = 1) +
    give_count +
    give_mean +
    scale_y_continuous(labels = comma) +
    labs(title = title, x = xtitle, y = ytitle) +
    facet_wrap(bycolumn)
}
```

-------------------------------------------------------------------------------------------------

# EDA

`
L'objectif de notre EDA n'est pas de visualiser les 151 caractéristiques de notre base de données. Sur la base du dictionnaire de données, de nos connaissances sur le risque de crédit et des recherches que nous avons pu faire, nous allons exposer une analyse graphique et statistique sur les caractéristiques qui nous paraissent les plus importantes dans l'augmentation de la probabilité de défaut. Voici une liste non exhaustive :
- L’historique des remboursements du client, s’il les règlent à temps ou non ; 
- De la signalétique personne (lieu de résidence, locataire ou propriétaire, catégorie socio-professionnelle, etc.) ;
- Le montant total dû et la mensualité associée ; 
- Le solde courant ; 
- Quand la première ligne de crédit a-t-elle été ouverte ; 
- Le type de ligne de crédit (revolving, hypothécaire) ;
- La raison pour laquelle l’emprunt est contracté ;
- Le nombre de lignes de crédit récemment ouverte et le nombre total de lignes que l’emprunteur possède ; 
- Le nombre de lignes de crédit ouvertes qui sont en défaut ou grave retard de paiement ;
- Le nombre d’enquêtes de crédit récentes ;
- La note de crédit attribuée au dossier.
`


#### Variable : "loan_status"
Il s'agit du statut actuel du prêt. Cette caractéristique prend plusieurs modalités :  un prêt remboursé ou non, en cours ou en retard de paiement.

Observation : on remarque que beaucoup de prêts, dans l'historique de la plateforme, sont totalement remboursés (70.8%). Ensuite il y a une part non négligeable de prêts qui sont en cours de remboursement (10.6%) mais qui sont, à l'heure, non remboursés, puis quand même une bonne part de prêts qui ne sont pas du tout remboursés (17.9%). Il y a une très faible minorité de paiements qui sont en retard ou en grâce de paiement (moins de 1%).

Intuition : cette variable sera la cible de nos modèles de Machine Learning supervisés. Il va donc falloir restructurer cette caractéristique afin d'avoir un problème de classification à 2 classes. Notre définition du défaut de paiement est la suivante : si l’emprunteur ne rembourse pas à la date d’échéance fixée par le contrat alors il est considéré en défaut de paiement, et cela même s’il rembourse plusieurs jours / mois / années après.
Ainsi, d'un côté nous aurons les emprunteurs ayant totalement remboursés leur emprunt et de l'autre, les emprunteurs restants. À priori, les individus en grâce seront exclus de la modélisation car ils n'ont pas remboursé mais sont en période de grâce. En outre, pour les emprunts en cours de remboursement nous ne savons pas si l'emprunteur est en retard ou non. Ainsi, nous les écarteront également.

```{r}
data %>% count(loan_status)
```

```{r}
fig <- plot_ly(data, labels = ~loan_status, type = "pie", marker = list(colors = c("#BCA9F5", "#82caaf", "#A9BCF5", "#A9F5BC", "#F7BE81", "#F78181")))
fig <- fig %>% layout(title = "Loan status proportion",
         xaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE),
         yaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE))

fig
```

Pour continuer notre data visualisation, nous allons créer un prédicat nommé "default" qui nous permettra de visualiser plus en détail nos différentes caractéristiques en opposant les emprunteurs en situation de défaillance et nos emprunteurs sains. Ce ré-encodage se base sur notre intuition précédente.

```{r}
data2 <- data

data2 <- data2[!(data2$loan_status == "Current" | data2$loan_status == "In Grace Period"), ]

default_var <- c("Charged Off", "Late (16-30 days)", "Late (31-120 days)")

data2 <- data2 %>%
  mutate(default = ifelse(!(loan_status %in% default_var), FALSE, TRUE))

data2 %>%
  summarise(default_freq = sum(default / n()))
```

Nous pouvons voir que suite à cette définition et classification du défaut de paiement, 21% des emprunteurs de notre base de données sont considérés en défaut de paiement tandis que 79% sont des emprunteurs sains.

```{r}
table(data2$default) / nrow(data2)
```


#### Variable : "loan_amount"

Il s'agit du montant du prêt demandé par l'emprunteur sur la plateforme.

Observation : dans l'ensemble, la distribution des montants des prêts demandés est légèrement étalée vers la droite. Ceci indique une skewness positive (0.61), donc une moyenne supérieure à la médiane. 
- 50% des prêts accordés sont d’un montant inférieur à 14 000€ (valeur de la médiane).
- Les montants des demandes de financement connaissent un pic autour de chaque pallier de 5 000€.
- De manière générale, les prêts totalement remboursés sont ceux pour lesquels le montant moyen du prêt est le plus faible. Pour toutes les autres modalités du statut du prêt, les montants moyens de financement sont supérieurs.
- Pas d'outliers pour cette variable. Les montants minimums et maximums sont tout à fait normaux et plutôt équilibrés entre les différentes classes. Sauf pour deux classes. Ceci peut venir du fait qu'il s'agisse d'un sample et non du dataset total.

```{r}
fig <- plot_subplot(data, data$loan_amnt, data$loan_status, "Loan amount variable", "Loan amount", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$loan_amnt)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(loan_amnt), digits = 4),
            Maximum = round(max(loan_amnt), digits = 4),
            Moyenne = round(mean(loan_amnt), digits = 4),
            Mediane = round(median(loan_amnt), digits = 4),
            Variance = round(var(loan_amnt), digits = 4),
            Ecart_type = round(sd(loan_amnt), digits = 4),
            Kurtosis = round(kurtosis(loan_amnt), digits = 4),
            Skewness = round(skewness(loan_amnt), digits = 4))
```

Quid du montant octroyé pour le prêt en fonction du grade de crédit Lending Club de l'emprunteur ? Nous remarquons que le montant octroyé a tendance à augmenter avec les grades de crédit Lending Club. C'est-à-dire que les grades les plus risqués sont ceux qui empruntent les plus grands montants en moyenne.
Pour la distinction entre les classes, on voit que les emprunteurs en défaut (TRUE) empruntent, en moyenne, très légèrement plus que les emprunteurs sains (FALSE).

```{r}
ggplot_box(data2, data2$grade, data2$loan_amnt, data2$default, "Loan Amount by Grade", "Grade", "Loan amount \n")
```

Quid du montant octroyé pour le prêt en fonction de la vérification de la source de revenu annuel de l'emprunteur ? Les montants moyens empruntés sont relativement proches pour les trois modalités de la variable "verification_status".

```{r}
data2 %>%
  ggplot(aes(verification_status, loan_amnt)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Loan Amount by verification status", x = "Verification status", y = "Loan amount \n")
```


#### Variable : "funded_amnt"

COMMENTAIRES.

```{r}
fig <- plot_subplot(data, data$funded_amnt, data$loan_status, "Funded amount variable", "Funded amount", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$funded_amnt)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(funded_amnt), digits = 4),
            Maximum = round(max(funded_amnt), digits = 4),
            Moyenne = round(mean(funded_amnt), digits = 4),
            Mediane = round(median(funded_amnt), digits = 4),
            Variance = round(var(funded_amnt), digits = 4),
            Ecart_type = round(sd(funded_amnt), digits = 4),
            Kurtosis = round(kurtosis(funded_amnt), digits = 4),
            Skewness = round(skewness(funded_amnt), digits = 4))
```


#### Variable : "int_rate"

C'est le taux d'intérêt du prêt.

Observation : globalement, le taux d'intérêt varie de 5% à 30% avec une distribution plutôt centrée à gauche mais bien étalée à droite (skewness positive : 0.65). On remarque un pic aux alentours de 12/13% (moyenne à 12.2%) puis une décroissance lente jusqu'au maximum de la distribution (28.99%).
Quid des différences inter-classe ? Les taux d'intérêt restent relativement proche néanmoins la moyenne des emprunteurs ayant remboursés est de 11.4% tandis que celle des défaillants ainsi que des autres classes elle est supérieure à 14%. Nous retrouvons cette même distinction au niveau de la médiane des distributions. Ceci est plutôt logique, si le risque de défaut augmente, le taux d'intérêt augmente aussi. Nous concluons que, en moyenne, plus le taux d'intérêt est fort, moins le prêt est remboursé.

Notons qu'il semble y avoir plusieurs outliers pour les trois premières classes du graphique. Cela sera à traiter dans le pre-processing.

Ci-dessous, nous allons analyser avec de nombreux détails cette variable qui est une réelle mesure de risque en économie monétaire et bancaire.

```{r}
fig <- plot_subplot(data, data$int_rate, data$loan_status, "Interest rate variable", "Interest rate", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$int_rate)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(int_rate), digits = 4),
            Maximum = round(max(int_rate), digits = 4),
            Moyenne = round(mean(int_rate), digits = 4),
            Mediane = round(median(int_rate), digits = 4),
            Variance = round(var(int_rate), digits = 4),
            Ecart_type = round(sd(int_rate), digits = 4),
            Kurtosis = round(kurtosis(int_rate), digits = 4),
            Skewness = round(skewness(int_rate), digits = 4))
```

Quid de l'évolution des taux d'intérêt selon l'échéance du prêt et le grade de crédit Lending Club de l'emprunteur ?
C'est assez perturbant, nous nous attendions à observer une plus forte distinction entre les différentes échéances. En effet, en économie logiquement plus l'horizon temporelle (i.e. ici l'échéance) est lointain et plus les risques sont élevés. Ainsi, normalement le taux d'intérêt à long-terme (60 mois) devrait être supérieur à celui d'un emprunt sur 36 mois car le risque de défaut est plus grand à long-terme.
Globalement, les taux d'intérêt sont similaires pour chaque grade de crédit et cela peu importe l'échéance du prêt.

```{r}
data2 %>%
  ggplot(aes(grade, int_rate)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Interest Rate by Grade", x = "Grade", y = "Interest Rate \n") +
  facet_wrap(~ term)
```

#### Taux d'intérêt moyen et médian par grade de crédit Lending club
```{r}
data2 %>%
  select(int_rate, grade) %>%
  group_by(grade) %>%
  summarise(int_rate_mean = mean(int_rate, na.rm = TRUE),
            int_rate_median = median(int_rate, na.rm = TRUE),
            n = n())
```

Quid du taux d'intérêt selon le statut de l'emprunteur et sa caractéristique "owner_ship" ?
La première chose à relever est le fait que les taux d'intérêt sont bien plus élevés pour les emprunteurs en situation de défaillance. Dans un second temps, nous remarquons que les emprunteurs qui sont en location immobilière possèdent un taux d'intérêt moyen plus élevé que ceux étant propriétaires ou en hypothèques.
De manière économique cela peut être cohérent car la banque ou l'investisseur sait que si cet emprunteur ne peut rembourser son emprunt, il possède toujours un certain patrimoine pouvant servir à rembourser ses dettes.

```{r}
ggplot_box(data2, data2$home_ownership, data2$int_rate, data2$default, "Interest Rate by Home Ownership", "Home Ownership", "Interest rate \n")
```

Quid du taux d'intérêt selon le statut de l'emprunteur et sa caractéristique "purpose" ?
Comme précédemment, nous notons que les taux d'intérêt moyens sont légèrement plus élevés pour les clients en défaut de paiement.
La question que l'on se pose ici est de savoir si le fait d'emprunter pour un objectif précis augmente la probabilité de faire défaut et surtout si, pour un même objectif d'investissement, il y a une différence inter-classe. C'est bien ce que nous remarquons. Le fait d'emprunter pour la modalité "small business" (emprunt pour la création et le lancement de son entreprise) accroît très fortement le taux d'intérêt et cela peu importe le pattern de défaut ou non de l'emprunteur. Le second motif faisant accroître le taux d'intérêt est l'emprunt pour l'achat d'une maison. Ceci est cohérent avec le fait que nous avions vu que les clients locataires avaient un taux d'intérêt plus élevé sachant que c'est potentiellement ces derniers qui contractent des prêts pour l'achat d'une maison.

Globalement nous remarquons bien que les taux d'intérêt possèdent un potentiel pouvoir discriminant afin de différencier les emprunteurs en défaut ou non.

```{r}
data2 %>%
  ggplot(aes(purpose, int_rate)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  facet_wrap(~ default) +
  theme(axis.text.x = element_text(angle = 45))
  labs(title="Interest Rate by Loan Purpose", x = "Loan purpose", y = "Interest rate \n")
```

Quid du taux d'intérêt selon le statut de l'emprunteur et sa caractéristique "verification_status" ?
Comme précédemment, le taux d'intérêt augmente selon de statut de l'emprunteur (TRUE ou FLASE). Les taux d'intérêt sont plus faibles, en moyenne, pour les emprunteurs dont l'auto-déclaration du revenu n'a pas été vérifiée.

```{r}
ggplot_box(data2, data2$verification_status, data2$int_rate, data2$default, "Interest Rate by Verification Status", "Verification status", "Interest rate \n")
```


#### Variable : "installment"

Il s'agit de la mensualité due par l'emprunteur si le prêt est accordé.

Observation : le montant des versements varie largement, avec une distribution assez étalée vers la droite ce qui montre la présence de très grosses mensualités (mensualité maximale : 1354.66$). Avec les boxplot, on ne voit pas de différence significative entre les mensualités d'un emprunteur qui a totalement remboursé son crédit par rapport à celui en défaut sauf pour les mensualités minimales et maximales.
Dans l'ensemble, les mensualités moyennes des classes sont relativement proches. Forcément, c'est les emprunteurs qui possèdent les plus faibles mensualités en moyenne. Pour la médiane, on observe la même chose avec une distinction inter-classe légèrement plus forte. En revanche, c'est un emprunteur qui a effectivement remboursé son emprunt qui détient la mensualité la plus élevée de notre échantillon.
Une fois encore, plusieurs outliers sont identifiés au sein de cette caractéristique. Nous verrons lors du pre-processsing comment les traiter.

```{r}
fig1 <- plot_ly(data, x = ~data$installment, type = "histogram", marker = list(color = "#BCA9F5"))
fig2 <- plot_ly(data, y = ~data$installment, x = ~data$loan_status, type = "box", marker = list(color = "#82caaf"))

fig <- subplot(fig1, fig2, nrows = 2) 
fig <- fig %>% layout(title = "Installment variable",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           title = "Installment",
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           title = "Count",
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$installment)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(installment), digits = 4),
            Maximum = round(max(installment), digits = 4),
            Moyenne = round(mean(installment), digits = 4),
            Mediane = round(median(installment), digits = 4),
            Variance = round(var(installment), digits = 4),
            Ecart_type = round(sd(installment), digits = 4),
            Kurtosis = round(kurtosis(installment), digits = 4),
            Skewness = round(skewness(installment), digits = 4))
```

Quid de la mensualité selon le montant emprunté et la statut de l'emprunteur ?

```{r}
ggplot_box(data2, data2$installment, data2$loan_amnt, data2$default, "Loan amount by Installment", "Installment", "Loan amount \n")
```


#### Variables catégorielles

Nous allons faire un focus sur les distributions des différentes modalités pour 6 variables qualitatives.
- "home_ownership"
- "term"
- "verification_status"
- "purpose"
- "grade"
- "pub_rec_bankruptcies"

Observations :
- La grande majorité des personnes demandant des prêts sont des personnes étant en location ou en hypothèque => emprunteurs en situation précaire.
- La très grande majorité des prêts financés sur la plateforme sont d'une durée de 36 mois. Environ 75% du total des prêts sont accordés pour une durée de 3 ans, tandis que seulement 25% des prêts sont accordés pour une durée de 5 ans.
- La plupart des prêts approuvés sont de qualité supérieure. Néanmoins, une part non négligeable de prêts sont accordés sans vérification.
- Très peu de prêts sont accordés aux personnes ayant déjà fait faillite, et donc ayant une mauvaise note.
- La très très grande majorité des prêts sont accordés pour des personnes n'ayant déclarées aucune faillite publique.
- Le motif de consolidation de la dette est de loin le principal motif de demande de prêt => emprunteurs en situation précaire.

```{r}
fig1 <- plot_histogram(data, data$home_ownership, "Home ownership distribution", "Home ownership", "Count")
fig2 <- plot_histogram(data, data$term, "Loan term distribution", "Term", "Count")
fig3 <- plot_histogram(data, data$verification_status, "Verified status proportion", "Verified status", "Count")
fig4 <- plot_histogram(data, data$grade, "Credit grade repartition", "Grade", "Count")
fig5 <- plot_histogram(data, data$pub_rec_bankruptcies, "Public bankruptcy distribution", "Public bankruptcy", "Count")
fig6 <- plot_histogram(data, data$purpose, "Loan purpose repartition", "Purpose", "Count")

fig <- subplot(fig1, fig2, fig3, fig4, fig5, fig6, nrows = 3, titleY = TRUE, titleX = TRUE, margin = 0.1)
fig <- fig %>% layout(title = "Cetgorical variable",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig
```


#### Variable : "sub_grade"

La plateforme Lending Club attribue un grade ainsi qu'un sous-grade à chaque prêt.

Observation :
- Les prêts de catégorie A et B sont les plus sûrs.
- Les prêts de catégorie D, E, F et G sont moins sûrs.
- Les prêts impayés sont en majorité de catégorie C et D.
- Les prêts à partir de la catégorie E, F et G sont risqués et moins nombreux.
- Ainsi, on peut dire que le système de classement de Lending Club fonctionne.

```{r}
fig <- plot_histogram(data, data$sub_grade, "Credit sub-grade distribution", "Sub-grade", "Count")
fig
```

```{r}
fig <- plot_box(data, data$grade, data$loan_status, "Credit grade distribution", "Grade", "Count")
fig
```

```{r}
fig <- plot_box(data, data$sub_grade, data$loan_status, "Credit sub-grade distribution", "Sub-grade", "Count")
fig
```


#### Variable : annual income
    
Le revenu annuel auto-déclaré par l'emprunteur lors de son inscription.

Observation : lorsque l'on regarde la répartition des revenus annuels, on voit que la distribution comporte de nombreuses valeurs extrêmes car la distribution est leptokurtic (kurtosis égale à 970.3) et très très étalée vers la droite (la preuve avec une skewness de 18.7). Nous observons un écart de 10 000$ entre la médiane et la moyenne.
Les moyennes et médianes des différentes classes sont relativement "proches". En revanche nous pouvons voir que pour les emprunteurs en période de grâce, leur moyenne et médiane sont anormalement élevées en raison du faible nombre d'observations de cette classe dans notre échantillon.

```{r}
fig <- plot_subplot(data, data$annual_inc, data$loan_status, "Annual income variable", "Annual income", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$annual_inc)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(annual_inc), digits = 4),
            Maximum = round(max(annual_inc), digits = 4),
            Moyenne = round(mean(annual_inc), digits = 4),
            Mediane = round(median(annual_inc), digits = 4),
            Variance = round(var(annual_inc), digits = 4),
            Ecart_type = round(sd(annual_inc), digits = 4),
            Kurtosis = round(kurtosis(annual_inc), digits = 4),
            Skewness = round(skewness(annual_inc), digits = 4))
```


Quid du revenu annuel auto-déclaré selon le grade de crédit Lending Club de l'emprunteur et le statut de l'emprunteur ?
Nous remarquons que les grades les mieux notés sont ceux qui affichent les plus forts revenus annuels. Les revenus décroissent avec les grades.

```{r}
ggplot_box(data2, data2$grade, data2$annual_inc, data2$default, "Annual income by Grade", "Grade", "Annual income \n")
```

Quid du revenu annuel auto-déclaré selon le grade de crédit Lending Club de l'emprunteur et l'échéance de crédit ?
Nous avons l'impression que les emprunteurs avec les plus hauts revenus et les meilleurs grades empruntent à court-terme tandis que ceux avec les plus faibles revenus annuels et les plus mauvais grades empruntent davantage à long-terme.

```{r}
data2 %>%
  ggplot(aes(grade, annual_inc)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Annual income by Grade", x = "Grade", y = "Annual income \n") +
  facet_wrap(~ term)
```


#### Variable : addr state

L'état fourni par l'emprunteur dans la demande de prêt.

Observation : les prêts les plus importants proviennent de l'Etat de la Californie, suivi par l'Etat de New-York, de la Floride et du Texas. Il faut s'y attendre car ce sont également les trois États américains les plus peuplés. Les États ayant un taux de défaillance plus élevé ont un nombre de prêts très faible. Le pourcentage n'est donc PAS significatif et doit être ignoré. Globalement, cette variable n'affecte pas la propension au défaut.

```{r}
fig <- plot_histogram(data, data$addr_state, "Borrower's state", "US state", "Count")
fig
```

Est-ce que certains états des Etats-Unis affichent des taux de défaut nettement supérieurs à d'autres états ?
- Oklahoma : 31.35%
- Nebraska : 30.43%
Les états de l'Oklahoma et du Nebraska sont ceux affichant un taux de défaut supérieur à 30%.

- Oregon : 13.25%
- Dakota du Sud : 12.50%
À l'inverse, les états de l'Oregon et du Dakota du Sud sont ceux affichant les plus faibles taux de défaut.

Les états peuvent donc avoir un pouvoir informatif dans la santé financière des emprunteurs. Forcément dans les états où le taux d'emplois, le taux d'urbanisation est fort, le taux de défaut est plus faible.

```{r}
default_rate_state <- 
  data2 %>%
  select(default, addr_state) %>%
  group_by(addr_state) %>%
  summarise(default_rate = sum(default, na.rm = TRUE) / n())

default_rate_state
```


#### Variable : "delinq_2yrs"

Le nombre d'incidences d'impayés de plus de 30 jours dans le dossier de crédit de l'emprunteur au cours des deux dernières années.

Observation : les risques de défaillance sont plus élevés si cette variable est supérieure à 1. Heureusement sa médiane est égale à 0. Nous pouvons voir qu'il n'y a pas une très grande différence entre les classes. Par exemple, la moyenne des emprunteurs en défaut est de 0.36 nombres d'incident sur les 2 dernières années contre 0.33 nombres d'incident pour les emprunteurs ayant totalement remboursés leur emprunt.

```{r}
fig <- plot_histogram(data, data$delinq_2yrs, "2 years delinq distribution", "2 years delinq", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$delinq_2yrs)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(delinq_2yrs), digits = 4),
            Maximum = round(max(delinq_2yrs), digits = 4),
            Moyenne = round(mean(delinq_2yrs), digits = 4),
            Mediane = round(median(delinq_2yrs), digits = 4),
            Variance = round(var(delinq_2yrs), digits = 4),
            Ecart_type = round(sd(delinq_2yrs), digits = 4),
            Kurtosis = round(kurtosis(delinq_2yrs), digits = 4),
            Skewness = round(skewness(delinq_2yrs), digits = 4))
```

Quid du nombre de délinquance sur les 2 dernières années selon le grade de crédit Lending Club de l'emprunteur et le statut de l'emprunteur ?
Avec l'aide des outliers, nous pouvons noter que le nombre de délinquance sur les 2 dernières années a tendance à augmenter pour les emprunteurs en défaut de paiement et d'autant plus pour les grades de crédit les plus mauvais pour les clients en défaut.

```{r}
ggplot_box(data2, data2$grade, data2$delinq_2yrs, data2$default, "Number of 2y delinq by Grade", "Grade", "Number of 2y delinq \n")
```

Quid du nombre de délinquance sur les 2 dernières années selon le grade de crédit Lending Club de l'emprunteur et l'échéance de crédit ?
Avec l'aide des outliers, nous pouvons noter que le nombre de délinquance sur les 2 dernières années a tendance à augmenter pour les emprunts en défaut de paiement et d'autant plus pour les grades de crédit les plus mauvais pour les emprunts de long-terme.

```{r}
data2 %>%
  ggplot(aes(grade, delinq_2yrs)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Number of 2y delinq by Grade", x = "Grade", y = "Number of 2y delinq \n")+
  facet_wrap(~ term)
```


#### Variable : "inq_last_6mths"

Nombre de demandes de renseignements au cours des 6 derniers mois (à l'exclusion des demandes de renseignements sur les véhicules et les prêts hypothécaires).

Observation : les emprunteurs qui possèdent plus de deux demandes de renseignements ont un taux de défaillance commençant à être significativement plus élevé.

```{r}
fig <- plot_histogram(data, data$inq_last_6mths, "Request for information distribution", "Request for information", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$inq_last_6mths)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(inq_last_6mths), digits = 4),
            Maximum = round(max(inq_last_6mths), digits = 4),
            Moyenne = round(mean(inq_last_6mths), digits = 4),
            Mediane = round(median(inq_last_6mths), digits = 4),
            Variance = round(var(inq_last_6mths), digits = 4),
            Ecart_type = round(sd(inq_last_6mths), digits = 4),
            Kurtosis = round(kurtosis(inq_last_6mths), digits = 4),
            Skewness = round(skewness(inq_last_6mths), digits = 4))
```

Quid du nombre de demandes de renseignements au cours des 6 derniers mois selon le grade de crédit Lending Club de l'emprunteur et le statut de l'emprunteur ?
En moyenne, plus le grade de crédit se détériore et plus le nombre de demandes de renseignements au cours des 6 derniers mois tend à augmenter pour les deux classes.

```{r}
ggplot_box(data2, data2$grade, data2$inq_last_6mths, data2$default, "Number of 6m inq by Grade", "Grade", "Number of 6m inq \n")
```

Quid du nombre de demandes de renseignements au cours des 6 derniers mois selon le grade de crédit Lending Club de l'emprunteur et l'échéance de crédit ?
En moyenne, plus le grade de crédit se détériore et plus le nombre de demandes de renseignements au cours des 6 derniers mois tend à augmenter pour les deux horizons d'emprunt. Nous pouvons tout de même remarquer que la moyenne du nombre de demandes de renseignements au cours des 6 derniers mois a tendance à augmenter plus lentement pour les emprunts sur 60 mois que sur 36. En général, c'est à partir du grade D que la moyenne augmente assez fortement par rapport au grade précédent.

```{r}
data2 %>%
  ggplot(aes(grade, inq_last_6mths)) +
  geom_boxplot(fill = "white", colour = "darkblue", 
               outlier.colour = "red", outlier.shape = 1) +
  give_count +
  give_mean +
  scale_y_continuous(labels = comma) +
  labs(title="Number of 6m inq by Grade", x = "Grade", y = "Number of 6m inq \n")+
  facet_wrap(~ term)
```


#### Variable : "open_acc"

Il s'agit du nombre de lignes de crédit ouvertes dans le dossier de crédit de l'emprunteur.

Observation : il n'y a pas de différence significative entre les lignes de crédit des prêts en défaut, ou autre, et celles des prêts entièrement remboursés (moyenne et médiane très proches). Notons qu'il y a de nombreux outliers à traiter.

```{r}
fig <- plot_subplot(data, data$open_acc, data$loan_status, "Open credit line variable", "Open credit line", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$open_acc)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(open_acc), digits = 4),
            Maximum = round(max(open_acc), digits = 4),
            Moyenne = round(mean(open_acc), digits = 4),
            Mediane = round(median(open_acc), digits = 4),
            Variance = round(var(open_acc), digits = 4),
            Ecart_type = round(sd(open_acc), digits = 4),
            Kurtosis = round(kurtosis(open_acc), digits = 4),
            Skewness = round(skewness(open_acc), digits = 4))
```


#### Variable : "total_acc"

Il s'agit du nombre total de lignes de crédit figurant actuellement dans le dossier de crédit de l'emprunteur.

Observation : il n'y a pas de différence significative entre les lignes de crédit des prêts en défaut, ou autre, et celles des prêts entièrement remboursés (moyenne et médiane très proches). Notons qu'il y a de nombreux outliers à traiter.

```{r}
fig <- plot_subplot(data, data$total_acc, data$loan_status, "Totla credit line variable", "Totla credit line", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$total_acc)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(total_acc), digits = 4),
            Maximum = round(max(total_acc), digits = 4),
            Moyenne = round(mean(total_acc), digits = 4),
            Mediane = round(median(total_acc), digits = 4),
            Variance = round(var(total_acc), digits = 4),
            Ecart_type = round(sd(total_acc), digits = 4),
            Kurtosis = round(kurtosis(total_acc), digits = 4),
            Skewness = round(skewness(total_acc), digits = 4))
```

Quid du nombre de lignes de crédit ouvertes selon le grade de crédit Lending Club de l'emprunteur et le statut de l'emprunteur ?
Ici, nous aurions pu nous attendre au fait que les emprunteurs en défaut aient davantage de lignes de crédit ouvertes. En réalité cela n'est pas vraiment vérifié. On remarque même qu'il n'y a pas vraiment de différence entre les grades de crédit. Par exemple pour les clients sains, le grade A possède, en moyenne, environ 25 lignes de crédit ouvertes au total sur toutes leur vie tandis que le grade G un peu moins. 
Attention cette interprétation est à prendre avec de grosses pincettes étant donné que nous n'avons pas autant d'observations dans ces deux grades de crédit et qu'ils ne sont donc pas très comparables. La légère décroissance du nombre de lignes de crédit ouvertes par emprunteur s'explique par la décroissance du nombre d'observations dans les grades les plus mauvais.

```{r}
ggplot_box(data2, data2$grade, data2$total_acc, data2$default, "Number of opened credit line by Grade", "Grade", "Number of opened credit line \n")
```


#### Variable  : "last_pymnt_amnt"

Dernier montant total du paiement reçu.

Observation : le montant du dernier versement reçu est nettement inférieur pour les prêts impayés par rapport aux prêts entièrement remboursés. Il y a un écart assez fort entre les prêts totalement remboursés et les autres : la moyenne et médiane sont relativement bien plus élevées (moyenne fully paid 5837.84 contre moyenne charged off 455.21).
De nombreux outliers pour la modalité des prêts totalement remboursés.

```{r}
fig <- plot_subplot(data, data$last_pymnt_amnt, data$loan_status, "Total paid amount variable", "Total paid amount", "Count")
fig
```

```{r}
stat_desc <- descriptive_statistic1(data, data$last_pymnt_amnt)
stat_desc
```

```{r}
data %>%
  group_by(loan_status) %>%
  summarise(Minimum = round(min(last_pymnt_amnt), digits = 4),
            Maximum = round(max(last_pymnt_amnt), digits = 4),
            Moyenne = round(mean(last_pymnt_amnt), digits = 4),
            Mediane = round(median(last_pymnt_amnt), digits = 4),
            Variance = round(var(last_pymnt_amnt), digits = 4),
            Ecart_type = round(sd(last_pymnt_amnt), digits = 4),
            Kurtosis = round(kurtosis(last_pymnt_amnt), digits = 4),
            Skewness = round(skewness(last_pymnt_amnt), digits = 4))
```


#### Variable : FICO score
- fico_range_high
- fico_range_low
- last_fico_range_high
- last_fico_range_low

Les scores de crédit FICO sont une méthode de quantification et d'évaluation de la solvabilité d'une personne. Les scores vont de 300 à 850, ceux compris entre 670 et 739 étant considérés comme de "bons" antécédents de crédit, de 740 à 799 comme de "très bons" antécédents de crédit et les scores supérieurs à 800 sont considérés comme d' "excellent" antécédents de crédit.

Observation : on remarque bien évidement que plus le score de FICO est élevé, en moyenne, plus le risque de défaut est faible. 

Dans un premier temps on regarde la limite inférieure de la fourchette à laquelle appartient le FICO de l'emprunteur au moment de l'octroi du prêt. On voit que la distribution des scores est très très étalée vers la droite. Il y a donc une skewness fortement positive et la présence de valeurs extrêmement positives.

Dans un second temps, on regarde la fourchette de limites à laquelle appartient le dernier FICO tiré de l'emprunteur. On retrouve la même conclusion : plus le score de FICO est élevé, plus le risque de défaut est faible en moyenne. Concernant la distribution des scores, elle semble relativement centrée sur de "bons" score de FICO.

```{r}
fig <- plot_subplot(data, data$fico_range_high, data$loan_status, "High FICO variable", "High FICO", "Count")
fig
```

```{r}
fig <- plot_subplot(data, data$fico_range_low, data$loan_status, "Low FICO variable", "Low FICO", "Count")
fig
```

```{r}
fig <- plot_subplot(data, data$last_fico_range_high, data$loan_status, "Last high FICO variable", "Last high FICO", "Count")
fig
```

```{r}
fig <- plot_subplot(data, data$last_fico_range_low, data$loan_status, "Last low FICO variable", "Last low FICO", "Count")
fig
```


#### Variables : 
- last_fico_range_high
- last_fico_range_low
- grade
- sub_grade

Observation : comme nous l'attendions, meilleure est la note de crédit accordée à l'emprunteur (grade et sub-grade), meilleur est son score de FICO. Ceci est logique, un bon score de FICO correspond naturellement à une bonne notation de crédit pour l'emprunteur.

```{r}
fig1 <- plot_box(data, data$last_fico_range_high, data$grade, "Last high FICO variable", "Last high FICO", "Count")
fig2 <- plot_box(data, data$last_fico_range_low, data$grade, "Last low FICO variable", "Last low FICO", "Count")

fig <- subplot(fig1, fig2, nrows = 2, titleY = TRUE, titleX = TRUE, margin = 0.1)
fig <- fig %>% layout(title = "Last FICO by grade",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig
```

```{r}
fig1 <- plot_box(data, data$last_fico_range_high, data$sub_grade, "Last high FICO variable", "Last high FICO", "Count")
fig2 <- plot_box(data, data$last_fico_range_low, data$sub_grade, "Last low FICO variable", "Last low FICO", "Count")

fig <- subplot(fig1, fig2, nrows = 2, titleY = TRUE, titleX = TRUE, margin = 0.1)
fig <- fig %>% layout(title = "Last FICO by grade",
         plot_bgcolor="#FFFFFF", 
         xaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         yaxis = list(
           zerolinecolor = "#ffff", 
           zerolinewidth = 2, 
           gridcolor = "ffff"), 
         showlegend = FALSE,
         showlegend2 = FALSE)

fig
```

-------------------------------------------------------------------------------------------------

# Synthèse de l'EDA

#### Caractéristiques potentiellement intéressantes
```{r}
data3 <- subset(data2, select = c("default", "loan_amnt", "funded_amnt", "int_rate", "installment", "annual_inc", "delinq_2yrs", "inq_last_6mths", "mths_since_last_delinq", "open_acc", "total_acc", "fico_range_high", "term", "grade", "home_ownership", "verification_status", "purpose", "addr_state", "application_type", "pub_rec_bankruptcies"))

str(data3)
```


Réaliser des graphiques de densité avec KDE nous permet de vraiment visualiser la distinction inter-classe. Pour les variables continues, on remarque bien que certaines caractéristiques apportent une bonne information. Quelques exemples : 
- Le score de FICO, c'est assez léger mais nous voyons bien que pour les emprunteurs n'étant pas en défaut les scores ont tendance à être supérieur. On voit même que pour la classe TRUE il y a un pic d'observation au début de la distribution ce qui montre qu'une grosse par des emprunteurs en défaut possèdent de faibles scores de FICO ;
- La variable du taux d'intérêt permet aussi de bien montrer le clivage entre les deux classes avec des taux qui sont plus élevés pour les emprunteurs en défaut ;
- Les emprunteurs en défaillance ont également tendance à emprunter de plus gros montants, la majorité des emprunteurs sains empruntent quasiment le montant moyen octroyé (10 / 12k $) ;
- Le nombre total de lignes de crédit ouvertes n'est pas vraiment discriminant afin de dissocier les deux classes comme nous l'avions notifié précédemment lors de l'analyse de la caractéristique ;
- Notons également que les caractéristiques "loan_amnt" et "funded_amnt" ont une distribution de valeurs très similaires ce qui indiquerait une forte redondance d'information donc une mutli-colinéarité imparfaite à supprimer pour ne pas biaiser notre future modélisation.

#### Plot des caractéristiques quantitatives intéressantes
```{r}
num_vars <- data3 %>% sapply(is.numeric) %>% which() %>% names()

data3 %>%
  select_(.dots = num_vars) %>%
  gather(measure, value) %>%
  mutate(default = factor(rep(x = data3$default, 
                              length.out = length(num_vars) * dim(data3)[1]), 
                          levels = c("TRUE", "FALSE"))) %>%
  ggplot(data = ., aes(x = value, fill = default, 
                       color = default, order = -default)) +
  geom_density(alpha = 0.3, size = 0.5) +
  scale_fill_brewer(palette = "Set1") +
  scale_color_brewer(palette = "Set1") +
  facet_wrap( ~ measure, scales = "free", ncol = 3)
```


Concernant les variables catégorielles :
- Les demandes de prêt sont généralement pour un emprunt seul et pas conjoint ;
- La proportion d'emprunteur en défaut est élevée dans les grades B, C et D ;
- La proportion d'emprunteur en défaut est élevée pour les emprunteurs en hypothèque ou en location immobilière ;
- De nombreux emprunteurs défaillants ont obtenu un prêt pour le motif de la consolidation de dette très principalement ;
- L'échéance de l'emprunt et la vérification du statut ne permettent pas de confondre les deux types d'emprunteur car les modalités des variables affichent les mêmes proportions.

#### Plot des caractéristiques qualitatives intéressantes
```{r}
char_vars <- data3 %>% sapply(is.character) %>% which() %>% names()

data3 %>%
  select_(.dots = char_vars) %>%
  gather(measure, value) %>%
  mutate(default = factor(rep(x = data3$default, 
                              length.out = length(char_vars) * dim(data3)[1]), 
                          levels = c("TRUE", "FALSE"))) %>%
  ggplot(data = ., aes(x = value, fill = default, 
                       color = default, order = -default)) +
  geom_histogram(stat = "count", alpha = 0.5) +
  scale_fill_brewer(palette = "Set1") +
  scale_color_brewer(palette = "Set1") +
  facet_wrap( ~ measure, scales = "free", ncol = 3)
```

--------------------------------------------------------------------------------------------------
